Termout.org logo/LING


Update: February 24, 2023 The new version of Termout.org is now online, so this web site is now obsolete and will soon be dismantled.

Lista de candidatos sometidos a examen:
1) clasificación automática (*)
(*) Términos presentes en el nuestro glosario de lingüística

1) Candidate: clasificación automática


Is in goldstandard

1
paper corpusSignosTxtLongLines213 - : Si bien una clasificación de textos se puede realizar manualmente, tarea que en lingüística se efectúa fundamentalmente en base a criterios multiniveles (lingüísticos, textuales, pragmáticos y funcionales) y que se conoce como tipologización textual (Ciapuscio, 1994, 2000; Parodi, 2005), también es deseable alcanzar un nivel de automatización de estos procedimientos. Esta tarea, desde una aproximación del procesamiento automático del lenguaje, es conocida como clasificación automática de documentos, donde el estándar es construir y usar las llamadas “máquinas de aprendizaje supervisado”. El proceso de crear una clasificación automática de textos consiste en descubrir variables que sean útiles en la discriminación de los textos que pertenecen a clases pre-existentes distintas . En particular, los clasificadores (programas que ejecutan algoritmos de clasificación) son entrenados en un grupo de documentos, previamente clasificados y etiquetados acorde a algún criterio particular (tema, ma

2
paper corpusSignosTxtLongLines213 - : En síntesis, la clasificación automática de documentos puede concebirse como un proceso de “aprendizaje matemático-estadístico”, durante el cual un algoritmo implementado computacionalmente capta las características que distinguen cada categoría o clase de documentos de las demás, es decir, aquellas que deben poseer los documentos para pertenecer a esa categoría . Estas características no tienen porqué indicar de forma absoluta e inequívoca la pertenencia a una clase o categoría, sino que más bien lo hacen en función de una escala o graduación. De esta forma, por ejemplo, documentos que posean una cierta característica tendrán un factor de posibilidades de pertenecer a determinada clase, de modo que la acumulación de dichas características arrojará un resultado que consiste en un coeficiente asociado a cada una de las clases ya conocidas. Este coeficiente lo que expresa en realidad es el grado de confianza o certeza de que el documento en cuestión pertenezca a la clase asociada al coef

3
paper corpusSignosTxtLongLines374 - : La tarea de clasificación automática de textos se basa en construir y usar las llamadas máquinas de aprendizaje supervisado. El proceso de crear una clasificación automática de textos consiste en descubrir variables que sean útiles en la discriminación de los textos que pertenecen a clases pre-existentes distintas (Sebastiani, 2002 ). Las principales contribuciones para el tema que nos ocupa son las estrategias de clasificación automática basadas en diferentes algoritmos de categorización. Con el fin de analizar las ventajas y desventajas de los algoritmos de categorización usados para esta tarea, mencionaremos algunos que han sido ampliamente probados por estudiosos del tema en diferentes contextos, como es el caso de los clasificadores con técnicas de Naive Bayes (Kononenko, 1991; Venegas, 2007; Zhang, Xue, Yu & Zha, 2009), máquinas de soporte vectorial (SVM) (Zhi-Hong, Tang, Yang, Zhang, Wu & Yang, 2002; Gunn, 2003) y árboles de decisión (Zhang, Dong & Ramamohanarao, 2000; Aitkenhead,

4
paper corpusSignosTxtLongLines384 - : La clasificación automática de textos ha estado ligada históricamente al desarrollo de Máquinas de Aprendizaje, una línea de la Inteligencia Artificial y la Inteligencia Computacional que se basa en el desarrollo de algoritmos que ‘aprenden’ o reconocen patrones recurrentes en cada clase a partir de un gran volumen textos de entrada, previamente clasificados por humanos .

5
paper corpusSignosTxtLongLines384 - : Cuando se observa la precisión y la cobertura de cada categoría (gráfica media inferior), se evidencia que la clasificación automática de textos no es una tarea fácil, más aún en Twitter donde las particularidades en el uso del lenguaje son significativas (Manley, 2012 ; Bryden et al., 2013). Sin embargo, para la clasificación de tweets positivos (línea verde), la precisión y la cobertura son, por lo general, altas y estables, seguidas por la categoría neutral (línea azul) y más abajo la categoría negativa (línea roja). A pesar de estas diferencias, el desempeño global^[27]2 del clasificador (Micro F1, gráfica inferior), obtenido como la media armónica entre la precisión y la cobertura,

6
paper corpusSignosTxtLongLines555 - : La asignación de una o más categorías predefinidas a los textos en lenguaje natural, basados en su contenido, es un componente importante y necesario en muchas tareas al interior de las organizaciones. Esta tarea se realiza comúnmente a través de la clasificación automática de textos, esto es, clasificando documentos dentro de un conjunto de categorías predefinidas por medio de un modelo y método computacional . La representación de los textos para propósitos de clasificación automática ha sido tradicionalmente llevada a cabo usando un modelo de espacio vectorial debido a su simplicidad y buen rendimiento. Por otro lado, la clasificación automática de textos por multi-etiquetados ha sido típicamente abordada utilizando métodos de clasificación de etiqueta simple, lo que implica transformar el problema estudiado para aplicar técnicas binarias o adaptar algoritmos binarios para que funcionen con múltiples etiquetas. En este artículo el objetivo es evaluar un factor de ponderación de las pa

7
paper corpusSignosTxtLongLines555 - : La clasificación automática con varias etiquetas es un tema importante en la recuperación de la información y el aprendizaje automático . La representación y clasificación de textos se han tratado tradicionalmente usando tf-idf debido a su simplicidad y buen desempeño.

Evaluando al candidato clasificación automática:


1) textos: 14 (*)
2) documentos: 7
3) tarea: 6 (*)
5) algoritmos: 5
6) aprendizaje: 4
8) lenguaje: 3 (*)
10) máquinas: 3
11) consiste: 3
12) precisión: 3 (*)
14) cobertura: 3 (*)
15) clases: 3
16) zhang: 3

clasificación automática
Lengua: spa
Frec: 35
Docs: 6
Nombre propio: / 35 = 0%
Coocurrencias con glosario: 5
Puntaje: 6.112 = (5 + (1+5.85798099512757) / (1+5.16992500144231)));
Candidato aceptado

Referencias bibliográficas encontradas sobre cada término

(Que existan referencias dedicadas a un término es también indicio de terminologicidad.)
clasificación automática
: Bordignon, F. , Peri, J., Tolosa, G., Villa, D. & Paoletti, L. (2004). Experimentos en clasificación automática de noticias en español utilizando el modelo bayesiano [en línea]. Disponible en: [30]http://www.unlu.edu.ar/~tyr/TYR-publica/paper-unlu-bayes-2004.doc